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摘 要 : [目的 /意义 ] 在 人 文 计算 迅速 发 展 的 背景 下 ,利用 文本 挖 据 技术 对 《 左 传 》 进 行 聚 类 计算 ,为 春秋 时 期 社会 发 展 状 
况 的 主题 挖 握 等 定量 分 析 提 供 参 考 ,同时 对 典籍 文本 多 维度 重组 和 分 析 也 具有 一 定 的 借鉴 意义 。 [ 方法 /过程 ] 
采用 文本 聚 类 方法 对 《 左 传 》 进 行 多 维度 的 定量 分 析 , 打破 《 左 传 》 线 性 的 编 年 体 记 载 顺序 , 先 运用 词 匹配 算法 从 
《 左 传 》 特 征 词语 料 中 得 到 各 个 诸 候 国语 料 ,再 将 LDA 主题 模型 先后 用 于 处 理 《 左 传 》 特 征 词语 料 和 选取 的 诸侯 国 
语 料 , 最 后 结合 时 间 信 息 进 行 主题 强度 计算 。[ 结果 /结论 ] 实验 结果 表明 ,根据 主题 - 词 分 布 可 以 挖掘 出 春秋 时 
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期 社会 和 诸侯 国 各 方面 的 发 展 内 容 , 通 过 主题 强度 变化 曲线 可 以 总 结 出 春秋 时 期 社会 和 各 诸侯 国 的 各 方面 发 展 
态势 。 通 过 LDA 主题 聚 类 方法 最 终 展 现 出 了 春秋 时 期 整个 社会 以 及 不 同 诸侯 国 在 战争 政治 及 外 交 等 的 发 展 变 
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( 左 传 ) 是 先秦 时 期 的 重要 典籍 ,是 我 国 第 一 部 编 
年 候 史书。 它 以 《春秋 》 的 记事 为 纲 ,以 时 间 先 后 为 
序 e 晤 从 了 上 起 鲁 隐 公 元 年 (公元 前 722 年 ) ,下 迄 鲁 诅 


绘制 各 主题 强度 的 变化 曲线 ,分 析 春 秋 时 期 战争 、 政 
治 礼仪. 外交 等 方面 的 发 展 与 变迁 。 该 方法 打破 《4 左 
传 ) 线 性 的 编 年 体 记载 顺序 ,通过 不 同 的 主题 维度 展现 
春秋 时 期 整个 社会 以 及 不 同 诸侯 国 在 战争 .政治 及 外 
交 等 方面 的 发 展 变迁 ,以 为 春秋 时 期 的 主题 挖掘 等 定 


公 丑 十 七 年 (公元 前 467 年 ) , 共 255 年 的 历史 ,记录 了 
春秋 时 期 100 多 个 诸侯 国政 治 .经 济 、 军 事 、 外 交 和 文 
化 台面 的 重要 事件 和 重要 人 物 ,是 研究 中 国 先秦 历史 
和 春秋 时 期 社会 发 展 的 重要 文化 材料 。 尽 管 《 左 传 》 
整体 以 编 年 记事 ,但 是 实际 事件 与 人 物 的 复杂 程度 和 
逻辑 关联 远 远 超过 了 线性 的 解读 能 力 ,普通 读者 即使 
认真 地 按照 文本 顺序 阅读 ,也 会 遇 到 很 大 的 理解 困难 
和 记忆 障碍 。 在 这 种 情况 下 ,借助 计算 机 对 相关 信息 
进行 处 理 将 显著 降低 阅读 的 难度 ,提高 信息 获取 效率 
与 利用 程度 "1。 

以 LDA 模型 为 代表 的 主题 模型 是 一 种 广泛 应 用 
于 文本 分 析 的 聚 类 方法 ,本 文 拟 利用 主题 模型 和 自然 
语言 处 理 技术 对 《 左 传 》 进行 主题 聚 类 ,结合 时 间 信 息 


量 分 析 提 供 参 考 与 借鉴。 
2 ”相关 研究 综述 


2.1 文本 计算 的 相关 研究 

随 着 大 数据 时 代 的 到 来 ,结合 计算 机 技术 对 大 规 
模 历史 文化 资料 进行 定量 分 析 已 成 为 人 文 研究 中 一 种 
新 的 有 效 方法 ,通过 统计 分 析 从 大 规模 数据 中 挖掘 新 
实 产生 新 认识 ” ,能 够 发 现 靠 传统 文献 阅读 无 法 发 
现 的 隐藏 在 文献 中 的 重要 和 内容。 这 类 研究 多 采用 数据 
可 视 化 、 词 频 统 计 自动 分 类 聚 类 和 机 噩 学 习 等 计算 机 
技术 对 文本 进行 量化 分 析 手 段 。 如 TextArc 文本 可 视 
化 分 析 工 具 针对 单一 文本 ,将 目录 、 概 要 、 叙 词 表 和 词 
频 统计 共 现 结合 在 一 起 ,从 整 篇 文档 和 文档 中 的 词 两 
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以 《 左 传 》 为 例 [J]. 图 书 情 闪 了 od Va 期 刊 


个 方面 对 全 文本 进行 交互 式 可 视 化 计算 分 析 , 引 导读 
者 揭示 新 发 现 ”。T. Horton 等 针对 所 选择 的 部 分 19 
世纪 美国 小 说 , 先 按 照 高 .中 、 低 的 情感 强度 标记 小 说 
中 的 每 一 章节 ,然后 利用 机 器 学 习 测 试 新 的 小 说 文本 ， 
挖掘 出 代表 不 同情 感 强度 的 具体 词汇 和 人 情境” 。F 
Moretti 在 2010 年 建立 斯 坦 福 文学 实验 室 ,通过 自动 聚 
类 和 机 器 学 习 , 从 多 风格 的 文学 作品 中 归纳 出 人 无 法 
总 结 的 文本 模式 特征 ,然后 对 未 知 样本 进行 分 类 实验 ， 
后 续 研 究 结 合 网 络 分 析 理 论 。 他 们 把 《哈姆雷特 》 的 
情节 用 网 络 关系 表达 出 来 ,分 析 人 物 对 白 等 关系 等 ,以 
帮助 探究 文艺 复兴 时 期 欧洲 国家 的 发 展 。J. B. Mi- 
chel 等 选择 了 500 多 万 本 1800 年 至 2000 年 出 版 的 英 
文书 籍 ,通过 计算 词语 的 共 现 频率 和 统计 分 析 , 归 纳 出 
“ 靶 林 被 采纳 的 速度 越 来 越 快 "等 相关 研究 结论 。 
典籍 文本 的 挖掘 研究 
近年 来 随 着 文本 计算 相关 技术 的 发 展 ,针对 中 国 
进行 文本 实验 的 研究 也 逐渐 增多 。J W. Chen 等 
5 性 对 《 世 说 新 看》 进行 文本 内 容 分 析 , 使 用 柱状 图 、 
Gephi 网 络 关系 图 、GIS 地 理 信息 图 等 方法 对 原 书 主 
县 入 物 以 及 包 全 的 地 理 空间 信息 \ 进 行 了 挖掘 与 量化 
7" 美国 加 州 大 学 洛杉矶 分 校 的 “东亚 研究 巨 视 
号 人 (East Asian Studies Macroscope, EASM ) 项 目 ， 
外 六 全 唐诗 利用 主题 页 建 模 聚 类 等 方法 进行 处 理 , 提 
炼 证 一 套 文档 内 的 潜在 语义 模式 ,用 户 可 以 通过 交互 
界 语 分 析 诗 歌 主题 题 .内容 等 ”" 。 欧 阳 剑 对 古籍 文本 进 
行 吾 词 的 历时 间 频 分 布 规律 可 视 化 分 析 ， 以 中 国史 定 


方面 ,呈现 出 单一 线性 ,不 立体 的 特点 ,其 中 《 左 传 》 词 
汇 与 句子 相关 研究 也 均 是 大 量 人 工整 理 所 得 ,这 种 方 
法 不 利于 大 规模 古籍 文本 研究 。 而 采用 文本 计算 的 方 
法 对 《 左 传 》 进行 挖掘 的 研究 还 比较 少 , 其 中 许 超 、 陈 
小 荷 提 取 了 《 左 传 》 中 的 人 物 与 事件 ,使 用 社会 网 络 分 
析 软 件 Pajek ,建立 起 春秋 时 期 社会 网 络 ,定量 地 对 这 
一 时 期 的 历史 社会 网 络 做 了 探索 性 研究 ,得 出 了 依靠 
传统 研究 方式 难以 实现 的 一 些 结论 ” 。 这 类 定量 化 
的 研究 较 少 的 原因 在 于 在 运用 现代 计算 机 技术 方法 处 
理 古 籍 文本 时 ,典籍 文本 自身 存在 的 一 些 独 特 属性 往 
往 加 大 了 研究 难度 。 以 4 左 传 》 为 例 , 一 是 其 原始 的 段 
落 划 分 太 过 细致 ,大 部 分 段落 文本 篇 幅 过 短 且 语义 不 
集中 ;二 是 中 文 词语 是 高 度 多 义 的 ,不 同 的 词性 所 代表 
的 含义 也 是 多 样 的 ;三 是 《 左 传 》> 的 编 年 体 记述 方式 ， 
只 是 按照 年 份 顺序 记述 发 生 的 事件 过 程 ,同一 年 份 中 
各 方面 的 事件 相互 摊 杂 ,主题 分 散 。 因 此 ,加 大 了 文本 
处 理 与 分 析 技 术 的 难度 。 

综 上 可 知 ,机 器 学 习 等 文本 分 析 技 术 的 发 展 为 利 
用 计算 机 技术 对 大 规模 历史 文化 资料 进行 定量 分 析 提 
供 了 坚实 的 技术 基础 ,学 者 们 也 成 功 地 将 文本 分 析 技 
术 用 于 《全 唐诗 兴 汉 典 》 等 典籍 的 挖掘 。《 左 传 》 是 一 
本 研究 春秋 时 期 的 重要 典籍 ,长 期 以 来 学 者 们 进行 了 
大 量 定性 的 研究 和 分 析 。 然 而 《 左 传 》 以 编 年 体 方式 
记载 ,庞杂 的 主题 人物、 事件 交 杂 在 一 起 ,给 人 工分 析 
带 来 了 巨大 的 挑战 。 在 人 文 计算 研究 发 展 如 火 如 茶 的 
今天 ,利用 文本 分 析 技 术 对 《 左 传 》 进 行 细 粒 度 的 主题 


量 禾 究 为 例 ， 对 部 分 中 史 的 经 典 宏 观 理 论 从 量化 角度 
进 重 了 初步 验证 ,例如 分 析 了 古籍 文本 中 对 武则天 的 
评价 和 “ 重 学 轻 术 ”思想 的 影响 等 ”。 印 第 安 纳 大 
学 和 西安 交通 大 学 合作 开发 的 工具 InPhO Topic Ex- 
WE 题 建 模 应 用 到 其 建立 的 Handian( 汉 和 典 
古籍 ) 语 料 库 上 ,用 来 辅助 发 现 和 解释 该 语料库 中 的 主 
题 品 ] 。R，Nichols 等 对 中 国 古 代 和 中 世纪 的 500 多 万 
字 的 语料库 进行 主题 建 模 ,根据 文本 的 相交 主题 和 不 
相交 主题 ,解释 验证 了 中 国 古 代 哲 学 的 重要 文本 《 论 
语 兴 和 孟子》 和 《荀子 》 之 间 的 竞相 关系 。 

2.3 《 左 传 》 文 本 的 相关 研究 

目前 针对 《 左 传 》 的 研究 ,大 部 分 都 是 具有 人 文学 


挖掘 研究 ,对 于 深度 挖掘 典籍 中 隐 含 的 知识 具有 重要 
的 意义 。 本 文正 是 在 前 人 研究 的 基础 上 ,针对 《 左 传 》 
文本 自身 的 属性 特征 ,如 文本 聚 类 粒度 古文 特征 词 提 
取 方 法 和 主题 挖掘 的 研究 维度 等 方面 存在 的 问题 ,对 
现 有 的 主题 挖掘 技术 进行 了 有 针对 性 的 优化 。 使 用 经 
过 优化 后 的 主题 建 模 与 主题 演化 的 方法 对 《 左 传 》 文 
本 进行 了 多 维度 的 聚 类 计算 分 析 ,研究 结果 对 于 典籍 
文本 多 维度 重组 和 分 析 具 有 一 定 的 参考 借鉴 意义 


3 ”入 究 方法 


3.1 研究 框架 
据 史 学 知识 所 知 ,春秋 时 期 社会 的 演变 发 展 主要 


科 背 景 的 研究 者 利用 详细 阅读 等 一 些 人 文学 科 的 研究 
方法 进行 研究 ,主要 集中 于 字句 注疏 的 考证 《 左 传 》 
与 先秦 文献 关系 及 成 书 时 间 考 证 《 左 传 》 内 容 及 思想 
等 ”… 。《 左 传 》 内 容 及 思想 方面 的 研究 相对 比较 分 散 ， 
主要 有 战争 礼仪” 人物 "外交 等 


围绕 在 战争 、 外 交 、 政 治 和 礼仪 等 儿 个 方面 ,本 文 分 别 
从 整个 社会 及 各 个 诸侯 国 两 个 维度 出 发 ,首先 通过 各 
自 的 主题 建 模 得 到 主题 聚 类 的 结果 ,然后 结合 时 间 信 
息 对 主题 建 模 的 结果 数据 做 进一步 处 理 , 得 到 主题 强 
度 变 化 图 ,通过 主题 演化 研究 来 挖掘 春秋 社会 255 年 
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间 各 时 期 不 同 主题 的 演变 态势 及 发 展 变 迁 。 

本 文 的 研究 框架 如 图 1 所 示 , 首 先 选取 古籍 《 左 
传 》 的 初始 语 料 ,对 其 进行 数据 预 处 理 ,然后 进行 主题 
建 模 预 实验 以 确定 聚 类 粒度 即 文本 单位 的 长 得, 加 以 
整理 得 到 《 左 传 》 特 征 词语 料 。 运 用 词 匹配 算法 ,从 
《 左 传 》 特 征 词语 料 中 得 到 各 个 诸侯 国语 料 ,选取 代表 
性 诸侯 国 的 语 料 进行 下 一 步 处 理 。 将 LDA 主题 模型 
先后 用 于 处 理 《 左 传 》 特 征 词语 料 和 选取 的 诸侯 国语 


必 左 传 》 
1 特征 词 
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.时 关键 步骤 实现 方法 


3s9=l ”LDA 主题 建 模 
CIDA Latent Dirichlet Allocation ) 引 是 D. M. Blei 
于 2003 年 提出 的 三 层 贝 叶 斯 主题 模型 , 它 通过 无 监督 
的 学 习 方 法 发 现 语 料 库 中 隐 含 的 主题 信息 ,采用 词 袋 
(bag of words ) 的 方法 将 语料库 中 的 每 一 篇 文档 视 为 一 
个 词 频 向 量 ,从 而 将 文本 信息 转化 为 易于 建 模 的 数字 
信息 。 由 于 LDA 模型 的 原理 与 算法 实现 较为 普遍 成 
熟 ,本 文 在 此 不 做 过 多 的 介绍 。 本 文 将 利用 《 左 传 》 特 
征 词语 料 的 主题 建 模 结果 之 一 一 一 主题 - 词 概率 分 布 
来 获取 春秋 社会 发 展 的 主要 主题 维度 和 具体 内 涵 。 在 
此 研究 基础 上 ,将 选择 的 诸侯 国语 料 进 行 同样 的 主题 
建 模 ,利用 各 诸侯 国 的 主题 - 词 分 布 来 挖掘 和 定义 各 
诸侯 国 的 不 同 主题 聚 类 维度 的 发 展 内 容 。 
在 LDA 主题 建 模 中 ,主题 数量 的 选择 对 于 结果 分 
析 非 常 重要 。 太 少 的 主题 可 能 会 把 语义 上 不 相关 的 内 
容 合 并 到 所 谓 的 般 合 主题 中 ; 太 多 可 能 会 导致 相关 内 
容 分 裂 成 单独 的 主题 ,造成 主题 之 间 的 宛 余 或 不 相关 


料 ,根据 所 得 人 《 左 传 》 主 题 - 词 分 布 来 挖掘 出 春秋 社会 
发 展 的 主要 方面 和 内 容 , 在 此 基础 上 ,根据 各 诸侯 国 的 
主题 - 词 分 布 来 挖掘 它们 各 方面 的 发 展 内 容 。 最 后 结 
合 时 间 信 息 ,对 得 到 的 《 左 传 》 和 各 诸侯 国 的 文档 - 主 
题 分 布 进行 主题 强度 计算 ,通过 得 到 的 主题 强度 变化 
曲线 反映 出 各 方面 的 发 展演 变 状况 ,总 结 春秋 时 期 社 
会 和 各 诸侯 国 的 各 方面 的 发 展 态势 ,最 终 展 现 春秋 时 
期 社会 各 方面 的 发 展 变迁 。 


各 个 诸侯 国 发 展 的 
主要 方面 及 内 容 


春秋 时 期 整个 社会 发 展 的 
主要 方面 及 内 容 ( 战略 、 
外 交 、 政 治 和 礼仪 等 ) 


站 主题 | 反映 
得 到 下 
1 轴 析 法 线 


图 1 春秋 时 期 社会 发 展 主题 挖掘 及 演变 研究 框架 


的 “垃圾 "主题 的 积累 “ 。 主 题 质 量 通常 由 主题 中 关 
键 词 的 语义 一 致 性 决定 ,但 主题 一 致 性 的 评估 通常 是 
研究 者 解释 的 产物 。 因 此 ,本 研究 在 使 用 Python 调 
日 第 三方 的 LDA 库 时 ,对 《 左 传 》 特 征 词语 料 进 行 了 不 
同 主题 数目 的 若干 试验 尝试 ,经 过 分 析 最 终 确定 主题 
数目 为 6, 迭 代 次 数 为 1 500 ,获得 最 优 的 主题 识别 结 
果 , 这 些 主题 提供 了 “广度 ”和 “深度 ”的 良好 平衡 , 同 
时 产生 了 很 少 的 垃圾 或 能 合 主题 。 
3.2.2 基于 LDA 的 主题 演化 

主题 会 随 着 时 间 进 行 相 应 的 变化 ,引入 时 间 因 素 ， 
这 种 变化 通常 反映 在 强度 、 内 容 两 方面 ,主题 强度 描述 
了 一 个 主题 的 受 关注 程度 ,通常 也 代表 着 主题 的 热门 
程度 ,本 文通 过 观察 主题 强度 随时 间 的 不 断 变化 来 掌 
握 主题 演化 的 方向 。 在 主题 演化 研究 方面 ,T. L.，Grif- 
fiths 等 在 2004 年 首先 提出 了 后 离散 分 析 方 法 , 即 
先 在 整个 文档 集 上 用 LDA 主题 模型 获取 所 有 的 主题 ， 
进而 估计 出 LDA 模型 的 参数 ,然后 将 文档 离散 到 相应 
的 时 间 片 ,对 于 某 个 主题 依次 计算 它 在 每 个 时 间 片 的 


~ 
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强度 ,从 而 显示 了 随时 间 推 移 而 强度 明显 上 升 的 热 话 
题 (hot topic) 和 下 降 的 冷 话题 (cold topic) 。 

具体 步骤 为 : 

(1) 划 分 时 间 片 。《 左 传 》 以 鲁 国 纪年 为 顺序 ,本 
文 即 按照 鲁 国 十 二 公 的 顺序 ,将 主题 建 模 所 得 的 所 有 
文档 - 主题 分 布 均 划 分 成 12 个 时 间 片 。 

(2) 主题 强度 计算 。 主 题 建 模 中 增 量 吉 布 斯 抽样 
算法 依据 相应 公式 获得 每 个 文档 中 主题 的 概率 分 布 ， 
即 6 分布 (文档 - 主题 分 布 ) ,本 文 根 据 这 个 分 布 利用 
崔 凯 “” 提 到 的 主题 强度 衡量 方法 来 计算 主题 强度 , 计 
算 公 式 为 : 


公式 (1) 


一 把 文档 扩展 到 文档 集 , M 为 时 间 片 中 文档 集 的 总 
数 育 ,9 表示 主题 k 在 第 i 篇 文档 中 出 现 的 概率 ,T. 为 
培训 kK 在 该 时 间 片 中 的 平均 概率 , 即 主题 K 的 强度 
代 泛 过 重复 计算 可 以 得 到 主题 K 在 12 个 时 间 片 中 不 
同 卫 强度 值 ， 每 个 主题 经 过 上 述 相同 的 计算 最 后 可 绘 

制 开 所 有 主题 的 强度 变化 曲线 图 。 

加 (3) 定 量 分 析 。 根 据 主 题 强度 变化 曲线 图 ,结合 


实际 上 是 TF( 词 频 ) * IDF( 逆 向 文件 频率 ) ,其 具体 计 


算 公式 为 : 


wii = tf ,xlog( 于 | 公式 (2) 


其 中 ,w, 表 示 词 语 i 在 文档 j 中 的 TF-IDF 值 ,ti， 
表示 词语 i 出 现在 文档 j 中 的 频率 ,N 表示 语料库 中 文 
档 总 数 ,df; 表示 在 整个 语料库 中 包含 词语 i 的 文档 数 。 
对 经 过 (1)(2) 步 处 理 的 《 左 传 》 语 料 进 行 TF-IDF 的 计 
算 , 选 取 TF-IDF 值 在 某 一 区 间 中 的 词汇 作为 特征 词 ， 
最 终 决 定 删除 TF-IDF 值 低 于 特定 阐 值 2 的 文本 代表 
意义 不 大 的 无 效 干扰 词 ,至 此 得 到 《 左 传 》 特 征 词语 
料 。 
3.2.4 文本 聚 类 粒度 

文本 聚 类 粒度 即 文档 长 短 也 是 影响 LDA 模型 主 
题 建 模 效果 的 重要 因素 ,短文 本 代表 性 词 少 、 文 档 级 的 
词 共 现 稀 跑 的 特点 使 得 LDA 对 于 短文 本 的 主题 挖掘 
不 一 定 能 够 达到 理想 效果 。 

因此 ,我 们 提出 了 3 种 聚 类 粒度 的 方案 : 

(1) 以 4 左 传 》 原 始 段落 为 聚 类 单位 。 根 据 此 前 分 
析 得 知 《 左 传 》 文 本 的 原始 段落 大 都 较 短 , 可 能 并 不 适 
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紫 泪 相应 的 主题 - 词 分 布 的 语义 分 析 , 量 化 分 析 每 个 
塘 题 的 演化 情况 ， 分 析 并 总 结 春秋 时 期 整个 社会 和 各 
从 说 侯 国 的 各 方面 的 发 展 态势 。 

3.33 ”特征 词 抽取 

特征 词 的 抽取 影响 LDA 主题 聚 类 的 效果 。 根 据 
此 车 本 节 描述 的 《 左 传 ) 文 本 的 特点 ， 为 了 提升 主题 聚 
类 的 效果 ,本 文 的 特征 词 抽取 方案 如 下 : 

- 〇 (1 ) 构建 基础 关键 词典 。 本 文 的 训练 语 看 料 是 经 过 
手工 分 词 得 到 的 《 左 传 ) 语 料 , 该 语 料 是 南京 师范 大 学 
陈 小 荷 研究 团队 的 成 果 , 由 具有 古文 知识 背景 的 研究 
生 手 工 切 分 完成 。 由 于 已 知 动词 语义 表达 的 重要 性 ， 
因此 与 处 理 现 代 汉 语 语 料 不 同 的 是 ,除了 保留 蕴含 语 
义 最 强 的 名 词 与 形容 词 ,本 文 还 提取 了 动词 作为 基础 
关键 词 。 

(2) 去 除 停 用 词 。 为 了 提高 主题 学 习 的 质量 , 需 

要 过 滤 一 些 不 能 反映 文本 主题 的 词语 ,本 文 的 停 用 词 

表 采 用 的 是 汉典 古籍 停 用 词 表 '" , 它 是 针对 中 国 古 籍 
文本 而 由 人 工 制作 的 ,包含 187 个 词语 。 

(3) 基 于 TF-IDF 的 特征 词 抽 取 方 法 。 至 此 , 语 料 

的 无 效 干 扰 词 还 有 很 多 ,而 特征 词 的 选取 可 以 进一步 

删除 其 中 的 干扰 词 以 提高 LDA 模型 输入 数据 的 有 效 

性 3。TF-IDF 是 一 种 统计 方法 ,用 以 评估 一 个 词语 对 

个 语料库 中 的 其 中 一 份 文档 的 重要 程度 ,TF-IDF 


合 直 接 用 于 LDA 主题 建 模 。 

(2) 以 4 左 传 》 年 份 为 聚 类 单位 。 例 如 隐 公 元 年 这 
一 年 份 的 所 有 文本 为 一 个 聚 类 单元 ,但 这 一 年 份 中 , 存 
在 军事 政治、 外交 等 多 个 主题 ,可 能 导致 聚 类 结果 不 
佳 。 


(3) 以 4《 左 传 》 年 份 中 每 个 主题 段落 为 聚 类 单位 。 
主题 段落 是 指 文本 中 语义 相近 的 多 个 原始 段落 作为 一 
个 聚 类 单元 。 本 文采 用 中 华 书 局 《 左 传 》( 郭 丹 译 文 ) 
中 历史 学 专家 划分 的 主题 段落 ,将 其 作为 文本 聚 类 单 
位 。 

经 过 对 3 种 聚 类 方案 的 对 比 ,发 现 相 对 于 全 文 文 
本 和 原始 段落 文本 ,方案 (3 ) 主题 段落 文本 的 聚 类 结 
果 语 义 更 集中 明确 ,最 适用 于 LDA 主题 建 模 。 

3.2.5 诸侯 国语 料 的 获取 

之 前 提 到 《 左 传 》 文 本 的 编 年 体 记述 所 带 来 的 炊 
端 ,因此 研究 春秋 时 期 社会 发 展 还 需要 分 析 诸 侯 国 层 
面 的 发 展 。 为 了 获取 不 同 诸侯 国 的 主题 语 料 ,首先 根 
据 《 春 秋 左 传 词典 》( 杨 伯 峻 版 ) ”整理 的 《 左 传 》 中 
158 个 诸侯 国 的 国名 - 地 名 词 表 ,对 《 左 传 》 特 征 词语 
料 中 的 每 个 主题 段落 进行 国名 和 地 名 遍历 ,如 果 含有 
诸侯 国 词 表 中 的 任意 一 个 国名 或 地 名 , 则 判定 该 主题 
段落 属于 此 国名 或 地 名 所 属 的 诸侯 国语 料 。 通 过 对 诸 
侯 国 语 料 的 统计 分 析 , 可 得 到 每 个 诸侯 国 所 涉及 的 主 
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题 段 落 数 ,作为 后 续 以 诸侯 国 为 主题 分 析 维度 的 依据 。 
表 1 显示 了 按照 所 含 主题 段落 数 降序 排列 的 前 30 个 
诸侯 国 主题 段落 的 数目 。 

表 1 不 同 诸 修 国文 本 主题 段落 分 布 数量 


4 ”实验 结果 与 分 析 


本 部 分 将 按照 第 三 部 分 的 研究 框架 ,运用 其 中 的 
实现 方法 分 别 对 其 涉及 的 方面 进行 处 理 分 析 , 并 对 实 


te x » /二 » 
和: 站 验 结果 进行 对 应 的 春秋 时 期 社会 和 诸侯 国 的 主题 挖 所 
0 4.1 ”春秋 时 期 社会 整体 分 析 
亚 国 717 许 国 175 申 国 82 _ 时 
, 如 表 2 所 示 ,《 左 传 》 主 题 - 词 概率 分 布 描述 了 每 
部 国 621 曹 国 158 向 国 81 个 主题 的 概率 排名 前 15 个 关键 词 ,此 前 的 特征 词 提 取 
由 2 I al 川 日 站 万 
座 国 i 大 i 二 2 个 主题 前 15 个 关键 词 ,此 前 的 特征 词 提 
楚 国 528 道 国 128 神 国 66 方法 ,使 得 这 些 结果 词 大 都 具有 高 度 语义 ,代表 了 LDA 
宁国 453 过 国 122 夏 国 65 主题 模型 关于 《 左 传 》 中 整个 春秋 时 期 社会 的 6 个 重要 
卫 国 414 莒 国 105 越 国 64 主题 的 发 现 。 具 体 分 析 如 下 : 
陈 国 290 夷 国 104 梁 国 63 
oh 2 表 2 《 左 传 ) 主 题 - 词 概 率 分 布 
主题 0 概率 主题 1 概率 主题 2 概率 主题 3 概率 主题 4 概率 主题 5 概率 
CC 0. 035 456 王 0.029 251 齐 0.029 013 楚 0.041 842 死 0.023 663 无 0.026 576 
庄 伐 。 0.027 242 书 0.012 634 这 侯 ”0.023 936 病 0.040 558 立 0.021 972 可 0.022 165 
< 0.021 626 名 0.012 179 重 0.019 463 部 0.020 922 儿 0.021 458 民 0.021 607 
局: 0.018 776 周 0.011 951 本 0.016 441 陈 0.018 505 臣 0.018 519 能 0.018 034 
人 省 伐 。 0.016 094 日 0.011 155 取 0.013 661 二 0.017 296 告 0.015 506 德 0.016 080 
[i 0.015 759 生 0. 009 675 讲 人 0.010 155 得 0.016 768 罪 0.014 624 国 0.015 410 
CH 0.01 328 火 0. 009 561 昔 0.009 672 孜 0.016 390 命 0.012 640 礼 0.010 887 
| 国 
SF 产 0. 012 993 疾 0. 008 992 季 琢 0.009 672 伐 0.015 861 奔 0.011 023 对 0.010 832 
Se 0.012 490 物 0. 008 196 城 0.009 309 吴 0.013 218 生 0.009 407 亡 0.009 380 
C6 人 0.011 316 晋 伐 。 ”0.008 082 伐 0.009 188 战 0.012 614 公子 ”0.007717 政 0. 008 933 
CR 0.011 149 祀 0. 008 082 门 0.009 188 楚 子 0.012 614 大 夫 0.006 982 失 0. 008 263 
Fe 0.010 814 食 0. 007 854 成 0.009 067 秦 0.012 538 车 0.006 688 诗 0.008 152 
EE 0.010 646 官 0. 007 513 条 0.008 100 救 0.010 272 召 0.006 467 行 0.008 040 
大 夫 0.009 975 竺 0. 007 399 叛 0.007 254 有 0.010 197 | 0.006 320 善 0.007 928 
本 0. 009 808 戎 0. 006 944 转 0.007 133 许 0.010 046 舍 0.006 320 天 0.007 370 


主题 0 中 大 量 动词 “ 盟 ”“ 合 "“ 酬 “会 ”“ 朝 “入” 
均 为 朝 聘 会 盟 类 动词 ,其 中 会 盟 类 代表 词 “ 盟 ”概率 排 
名 第 三 。 周 王室 虽 衰 败 ,但 周 礼 在 当时 还 是 个 庞大 的 
精神 存在 ,因此 会 盟 其 实 是 表面 上 得 奉 周 天 子 ,本 质 是 
调遣 不 臣服 的 诸侯 ,这 一 点 由 排名 第 2 的 “诸侯 ”第 
12“ 礼 ”等 关键 词 体 现 ,其 他 名 词 关 键 词 均 为 天 子 、 诸 
侯 和 臣子 。 因 此 主题 0 的 标签 定义 为 “诸侯 会 盟 ”。 

主题 1 中 概率 排名 徘 前 的 “ 王 ”“ 周 "代表 周 天 子 
周 王朝 ,“ 书 ” (记载),“ 名 ”( 事 号 ),“ 官 “日 "(日 月 
星 展 ),“ 生 ”( 出 生 ),“ 火 ”点 火 仪式 ),“ 疾 "(疾病 )， 
“ 物 ”“ 礼 "“ 食 "(祭礼 时 配 享 、 配 食 等 ) ,代表 封 官 加 
珊 ,生辰 与 疾病 ,记录 日 月 星辰 之 轨迹 ,祭祀 的 食品 、 物 
件 及 仪式 ,礼仪 贯穿 于 春秋 社会 的 方方面面 。 因 此 主 


题 1 的 标签 定义 为 “礼仪 .仪式 ”。 

主题 2 中 的 “ 取 ”( 战胜 而 获取 ;以 强力 夺取 他 人 
之 物 ; 灭 人 之 国 以 护 张 已 地 ),“ 伐 "(征伐 ),“ 成 "(成 
功 , 讲 和 ,调解 使 和 ),“ 叛 "(背叛 ) “图 "(包围 ) 大 量 
的 关键 动词 揭示 了 春秋 时 期 是 强 者 为 尊 ,以 实力 争霸 
的 时 代 以 及 各 诸侯 国之 间 错 综 复杂 的 关系 。 其 中 实力 
较 强 的 诸侯 国 相关 词 概率 排名 相对 靠 前 ,有 * 弃 ”“" 译 
修 "“ 和 鲁 “ 和 本 ”, 鲁 臣 " 季 琢 ", 小 诸侯 国有 “ 莒 “条 " ,一 
定 程度 揭示 了 这 些 诸侯 国 及 其 诸侯 臣子 之 间 的 复杂 
系 。 因 此 主题 2 的 标签 定义 为 “诸侯 国 关系 ”。 

主题 3 中 的 “ 陋 “ 败 ”“ 伐 “ 工 "“ 救 币 " 均 为 战 
争 类 动词 ,表明 战争 是 春秋 时 代 的 显著 元 素 。 该 主题 
还 体现 出 很 多 诸侯 国 “ 楚 "“ 部 "“ 陈 "“ 始 "“ 刁 "“ 秦 ” 
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“ 许 ”之 间 讨伐 与 营救 的 错 杂 关 系 。 因 此 主题 3 的 标签 
定义 为 “诸侯 国 战 争 ”。 

主题 4 中 动词 “ 死 “ 立 ”( 立 人 为 君 ; 生 存 ) ,“ 杀 ” 
“ 告 "( 告 诚 ;宣告 )“ 罪 “ 命 ”( 命 令 ) “ 奔 ”( 奔 逃 ,出 


走 , 流 亡 ),“ 生 ” (出 生 , 使 复生 ),“ 召 "“ 户 "“ 舍 ”( 任 
命 ,安置 ) 以 及 人 物 名 词 “" 臣 “公子 “大 夫 " 揭示 了 春 


能 ),“ 德 "“ 礼 ”表示 《 左 传 ) 中 倡导 赞同 国君 要 有 才能 ， 
有 德行 ,以 礼 治 国 ;“ 诗 "(诗经 ),“ 行 "(奉行 ,执行 )， 

善 “天 ”, 则 表示 《 左 传 》 中 倡导 国君 要 有 善心 , 信 天 
命 , 同 时 也 体现 出 《 左 传 》 对 诗经 的 引用 六 无 "表示 和 否 
， 亡 "(被 消灭 ),“ 失 ” (违背 ,丢失 ) 这 类 词 传达 的 
如 果 国 君 背 弃 了 这 些 仁义 道德 ,那么 就 会 被 灭亡 的 


秋 时 期 政治 发 展 的 新 格局 :争霸 的 重心 从 诸侯 国之 间 
转移 到 各 诸侯 国内 位 高 权重 的 卿 相 大 夫 之 间 ,各 国内 


乱 迭 起 。 因 此 主题 4 的 标签 定义 为 “诸侯 国 的 宫廷 权 
力 斗争 ”。 
主题 5 中 的 “ 民 ”“ 国 ”“ 政 "表明 在 国家 的 政治 治 


理 中 人 民 的 重要 性 ,其 中 “ 民 ” ,概率 排名 第 三 ,体现 出 
人 本 思想 ;排名 靠 前 的 “可 ”( 表 示 赞 同 ), “能” ( 才 


™ 0.3 
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克 公 桓公 庄 公 问 公 信 公 文公 宣 公 成 公 襄公 昭公 定 公 哀公 


思想 。 因 此 主题 5 的 标签 定义 为 “ 周 礼 治 国 ”。 

本 文 的 文本 聚 类 粒度 为 主题 段落 文本 , 主题 段落 
语义 明确 集中 ,在 此 基础 上 得 到 的 文档 - 主题 概率 分 
布 更 为 明确 ,计算 得 出 的 每 个 时 间 片 的 主题 强度 能 够 
准确 地 体现 出 主题 的 发 展 热度 。 以 时 间 ( 和 鲁 国 十 二 
公 ) 为 横 轴 主题 强度 为 纵 轴 绘制 部 分 主题 强度 变化 
,如 图 2 所 示 : 


“礼仪 、 仪 式 ” 主 题 强度 演化 


隐 公 桓公 庄 公 阅 公 信 公 文公 宣 


“战争 ”主题 强度 演化 


人 


你 公 桓公 庄 公 闵 公 信 公 


文公 宣 公 戌 公 襄公 昭公 定 公 嘉 公 


图 2 《 左 传 》 春 秋 社 会 部 分 主题 强度 变化 


主题 0 “诸侯 会 盟 " 在 闵 公 时 期 热度 最 低 , 此 后 持 
续 高 涨 ,直到 襄公 时 期 开始 下 降 。 春 秋 初 期 , 周 王 室 逐 
渐 没 落 ,会 盟 诸侯 也 逐渐 减少 ,直到 齐 桓公 以 “尊王 捧 
夷 "为 号 召 , 会 盟 诸侯 ,逐渐 变 成 霸主 , 即 正 是 关公 时 期 
诸侯 会 盟 开始 逐渐 回升 增加 。 春 秋 中 晚期 政治 格局 出 
现 的 新 趋势 :争霸 的 重心 从 诸侯 国之 间 转 移 到 各 诸侯 
内 位 高 权重 的 卿 相 大 夫 之 间 , 各 国内 乱 迭 起 ,因此 诸 
侯 国 之 间 的 会 嚼 的 热度 开始 从 襄公 时 期 下 降 。 

主题 1“ 礼仪 ,仪式 ”一直 贯穿 于 整个 春秋 时 期 ,但 
是 随 着 周 王室 的 没落 , 礼 乐 制度 土 衣 瓦解 ,热度 一 直 逐 
渐 下 降 。 虽 然 鲁 囊 公 到 和 鲁 昭 公 时 期 有 小 回升 ,原因 可 
能 是 因为 鲁 囊 公 时 期 孔子 出 生 , 他 推崇 礼仪 起 了 一 定 
作用 。 


主题 3 "诸侯 国 战争 "主题 热度 一 直 处 于 中 上 游 水 
平 ,证 明了 战争 在 左 传 中 的 重要 性 。 此 前 提 到 齐 桓公 
“尊王 囊 夷 ”, 从 那 开 始 会 盟 与 征伐 的 交替 进行 就 成 为 
春秋 时 期 的 显著 特征 ,因此 闵 公 时 期 之 后 一 段 时 期 战 
争 主题 热度 较 高 。 公 元 前 546 年 ( 鲁 豆 公 时 期 ) 第 二 次 
“ 强 兵 之 会 ”达成 协议 ,战火 暂时 得 以 平息 ,可 以 看 出 
襄公 时 期 之 后 战争 热度 开始 下 降 。 
4.2 春秋 时 期 重点 诸侯 国 分 析 
由 第 三 部 分 的 统计 分 析 可 知 鲁 国 、 郑 国 、 楚 国 
诸侯 国 在 4 左 传 》 语 料 库 中 涉及 的 篇 幅 较 大 ,所 属 的 主 
题 段 落 数 均 超 过 500, 且 在 人 文学 科 对 春秋 社会 的 研 
究 中 也 很 重要 ,因此 在 诸侯 国 维度 上 选择 这 3 个 诸侯 
司 作为 研究 代表 ,延续 《 左 传 》 特 征 词语 料 的 主题 建 模 
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处 理 步 又 ,将 3 个 诸侯 国 的 语 料 分 别 进行 主题 建 模 处 
理 , 即 使 用 Python 调用 第 三 方 的 LDA 库 , 主 题 数 目 设 
置 为 6, 人 迭代 次 数 设 置 为 1 500, 得 到 表 3 - 表 5 三 个 诸 
侯 国 的 主题 - 词 分 布 , 每 个 主题 的 前 15 个 关键 词 ( 按 
照 主题 内 的 词语 概率 降序 排列 ) ,在 上 一 节 对 《 左 传 》 
中 春秋 社会 的 主题 - 词 概率 分 布 语义 分 析 的 基础 上 ， 
解读 每 个 诸侯 国 的 主题 - 词 分 布 ,并 将 每 个 诸侯 国 的 
主题 加 以 标签 。 
表 3 和 鲁 国 主题 - 词 分 布 


i 主题 关键 记 标签 

厅 号 

0 章 章 伐 重 门 奔 臣 季 达 死 取 告 城 阁 书 询 人 立 与 齐 国 的 关系 

1 岳 楚 战 王 败 陈 伐 喘 楚 子 驯 军 部 可 侵 牙 战争 

2 民 无 能 可 国 德 礼 对 失 行 大 夫 命 诗 善 心 周 礼 治国 

号 二 王 秦 垩 普 伐 取 瑚 周 立 伐 秦 伯 大 子 田 睹 狱 德 与 其 他 诸侯 加 
的 关系 

@) 吉 谢 侯 宋 闻 盟 主子 闫 会 窒 帮 藤 莹 伐 齐 大夫 。 江 伐 会 盟 

GO 成 福 


宫廷 权力 斗争 


死 杀 臣 罪 生命 告 立 包 卒 可 食 过 无 召 


k 主题 关键 记 标签 
(ONJ 死 玫 丐 立 告 罪 奔 亡 止 取 坑 乱 舍 书 大 夫 宫廷 权力 斗争 
四 人 扰 国 能 和 可 子 产 命 行 对 窒 君 民 求 礼 下 朝 ”政治 治理 
@N 生理 合 命 天 秦 火 瑚 立 狄 神 吉 民 大 子 下 各 礼仪 仪式 
拿 王 德 民 周 礼 乱 杀 可 诗 取 行 威 府 克 征 周 礼 治国 
沁 楚 师 郑 伐 普 履 也 可 虐 想 了 有 军 许 侵 示 战争 

盟 诸 侯 齐 宋 殖 重 会 命 齐 伐 许 告 名 于 伐 部 伯 书 诸侯 会 嚼 


“诸侯 会 盟 ” 主 题 强度 演化 


一 (一 鲁 国 “一 @ 一 郑 国 一 和 一 本 
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表 5 楚 国 主题 - 词 分 布 
二 主题 关键 词 标签 
序 写 


0 儿 死 立 臣 罪 生 无 蜗 奔 公子 纳 亡 告 书 王 宫廷 权力 斗争 
1 普 楚 部 主 侯 盟 许 陈 国 宋 无 蔡 吕 得 侯 部 伯 楚 子 诸侯 会 盟 


二 


2 师 楚 王 败 吴 伐 战 军训 楚 子 克 令 尹 奔 秦 备 战争 

3 王 人 无 德 民 周 戎 负心 减 成 神 疾 臣 封 族 礼仪 .仪式 

4 齐 死 鲍 齐 伐 门 告 本 乘 止 免 车 肉 季 职 扫 马 与 其 他 诸侯 国 
的 关系 

5 可 命 能 民 行 对 臣 率 礼 苹 天 求 失 国 政 周 礼 治国 


其 中 ,和 鲁 国 主题 0 中 “ 讲 "“ 讲 伐 "“ 讲 人 ”体现 出 齐 
国 在 鲁 国 发 展 中 的 重要 地 位 以 及 两 国之 间 复 杂 的 关 
系 ,成 公 年 间 , 鲁 国 的 镍 家 贵族 “ 季 辽 ” 听 盟 主 普 国 号 
令 ,发 兵 攻 齐 ,是 为 较 之 战 。 郑 国 主题 1 概率 排名 徘 前 
的 关键 词 “ 子 产 ” 是 郑 穆公 之 孙 , 在 执政 期 间 , 进 行 了 
自 上 而 下 的 改革 ,在 对 楚 . 晋 等 国 的 外 交 方 面 ,也 取得 
了 一 定 的 成 绩 ,再 结合 其 他 关键 词 分 析 得 出 该 主题 的 
标签 “政治 治理 ”。 楚 国 主题 2 表明 其 战争 主要 发 生 
在 “ 吴 "“ 秦 "两 国之 间 , 春 秋 时 期 吴 国 , 楚 国 、 秦 国 均 为 
中 原 争霸 的 重要 参与 国家 , 吴 王 闻 间 时 期 还 攻破 了 楚 
国都 城 ,“ 楚 ”“ 喘 ” 排 名 靠 前 则 体现 出 吴 国 和 楚 国 之 间 
较 强 的 战争 关系 。 

3 个 诸侯 国 均 有 “诸侯 会 盟 " 和 ”战争 "等 主题 ， 
3 为 绘制 的 相同 主题 的 强度 变化 图 。 


“战争 ”主题 强度 演化 


0.35 一 一 普 国 “一 上 一 郑 国 一 一 楚 国 


图 3 三 国共 同 主题 强度 变化 


3 个 诸侯 国 的 “诸侯 会 盟 " 主题 强度 走势 几乎 吻 
合 , 整 体 来 看 主题 热度 处 于 中 上 游 水 平 ,说 明 诸 侯 会 盟 
发 生得 较 频繁 ,尤其 是 在 闵 公 时 期 之 后 上 涨幅 度 较 大 ， 
这 印证 了 上 一 节 分 析 的 整个 春秋 社会 的 “诸侯 会 盟 ” 
的 演变 态势 。 

春秋 时 期 大 大 小 小 的 战争 不 断 ,各 个 国家 的 状况 
都 不 同 ,其 中 由 于 鲁 闵 公 仅 在 位 两 年 ,该 期 间 鲁 国 几 乎 
未 参与 战争 ,因此 闵 公 时 期 鲁 国 “战争 "主题 热度 最 


低 。 郑 国 “ 战 争 " 主题 强度 起 伏 较 大 ,在 宣 公 成 公 时 
期 , 郑 国 依 违 于 晋 . 楚 两 大 国之 间 , 先 后 发 生 过 很 多 次 
战争 ,并 攻打 了 和 奢 国 、. 许 国 等 ,因此 这 两 个 时 期 的 “ 战 
争 " 主题 热度 达到 最 高 。 鲁 桓公 时 期 是 楚 国势 力 扩张 
的 时 期 ,先后 讨伐 随 国 ,与 巴 国 一 起 夹攻 邓 国 ,进攻 绞 
等 ,战争 讨伐 不 断 ,因此 桓公 时 期 楚 国 “战争 ”主题 


某 些 诸 伐 国 还 存在 独自 特有 的 主题 ,如 和 鲁 国 “ 与 齐 
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国 的 关系 ”主题 郑 国政 治 治理 "主题 , 见 图 4。 
鲁 国 “与 齐 国 的 关系 ”主题 热度 在 整个 春秋 时 期 
鲁 国 “与 齐 国 的 关系 ”主题 强度 演化 


逐步 上 升 ,在 定 公 时 期 主题 热度 达到 最 高 点 。 和 鲁 定 公 
在 位 期 间 被 孔子 建议 外 联 齐 国 , 制 定 了 一 系列 措施 , 定 


0.35 郑 国 


“政治 治理 ”主题 强度 演化 


询 公 桓公 庄 公 闵 公 信 公 文公 宣 公 成 公 早 公 昭公 定 公 京 公 


隐 公 桓公 庄 公 阅 公 信 公 文公 宣 公 成 公 襄公 归公 定 公 哀公 


图 4 单个 国家 特有 主题 强度 变化 


公 十 年 ,在 齐鲁 夹 谷 之 会 鲁 国 又 从 齐 国手 中 讨 回 了 汶 
阳 之 地 ,齐鲁 关系 发 展 到 最 高 热度 。 郑 国 “政治 治理 
韦 题 热度 变化 起 伏 较 大 ,在 吉 公 和 昭公 时 期 热度 最 高 ， 
赴 从 此 前 对 郑 国 “ 政 治 治理 ”主题 的 分 析 , 郑 穆公 之 孙 
书证 在 公元 前 554 年 为 卿 ,公元 前 543 年 执政 ,其 执政 
期 出 ,进行 了 自 上 而 下 的 政治 改革 ,对 应 鲁 国 纪年 正 是 
是 


5 名 结论 与 展望 


G0 本 为 人 文科 学 中 的 计算 机 相助 角 和 提供 了 
_EB 有 效 的 方法 。 本 研究 在 近年 国内 外 研究 的 基础 
WL( 左 传 ) 为 例 ,针对 古文 进行 特征 词 提取 方法 的 
初 秦 探究 ,构建 诸侯 国 国名 - 地 名 词 表 , 结 合 文本 挖 所 
六 慌 进 行 国家 语 料 的 抽取 与 统计 ,运用 LDA 主题 模型 
和 虹 尖 这 化 方法 ,从 ( 左 传 》 中 整个 社会 和 各 个 诸 候 国 

维度 来 挖掘 春秋 时 期 社会 发 展 各 方面 的 内 容 与 演 
针对 整个 春秋 社会 分 析 , 发 现 其 主要 围绕 
“诸侯 会 盟 "“ 礼 仪 .迷信 “诸侯 国 关系 ”"“ 诸 侯 国 虐 
争 "诸侯 国 的 宫廷 权力 斗争 " 周 礼 治 国 "这 六 大 主题 
发 展 ,在 此 基础 上 ,分 析 发 现 各 大 诸侯 国 的 发 展 也 均 围 
绕 着 “诸侯 会 盟 "“ 战 争 "宫廷 权力 斗争 "等 主题 ,其 
中 还 发 现 了 革 些 诸侯 国 特有 的 发 展 主题 ,例如 郑 国 的 
“政治 治理 "等 ,通过 绘制 的 主题 强度 变化 图 清晰 地 措 
述 出 春秋 时 期 整个 社会 和 各 大 诸侯 国 的 各 方面 发 展 随 
鲁 国 时 间 的 热度 变化 ,探索 春秋 时 期 社会 各 方面 发 展 
的 变迁 ,证 实 了 人 文 计算 领域 可 借助 LDA 主题 模型 来 
理解 .探索 和 诠释 中 国 丰 富 的 文化 遗产 ,具有 一 定 的 实 
路 意义。 

本 文 的 主题 挖 气 及 演化 研究 方法 有 许多 局 限 性 。 
首先 ,虽然 机 器 学 习 的 方法 不 存在 人 为 偏见 ,但 是 古典 
汉语 中 广泛 的 多 义 性 给 非 历 史学 专业 出 身 的 笔者 提供 
了 解释 性 挑战 ,对 主题 内 容 与 演化 的 分 析 解 释 可 能 会 


可 能 会 


i 


而 


虎 


存在 一 定 偏见 与 踢 漏 。 其 次 ,本 研究 发 现 古 代 汉 语 动 
词语 义 网 络 体系 的 构建 与 古籍 主题 段落 的 有 效 划 分 是 
影响 主题 建 模 效果 的 两 个 重要 因素 ,由 于 时 间 精 力 有 
限 ,本 研究 还 未 对 其 进行 更 为 深入 的 探究 ,在 后 续 研 究 
中 将 进一步 进行 探索 。 再 者 ， a ln en 
有 用 于 评估 的 正确 的 “黄金 标准 ,后续 研究 中 可 以 
建立 一 个 有 效 评估 模型 实验 效果 的 评价 体系 ,例如 可 
以 采用 定量 (困惑 度 等 ) 与 实验 文本 分 析 ( 专 业 人 士 的 
验证 检查 ) 相互 结合 的 评价 方法 。 最 后 ， 主题 演化 研究 
包括 主题 内 容 和 主题 强度 两 个 方面 ,主题 强度 的 演化 
衡量 的 是 主题 受 关注 程度 的 变化 , 主题 内 容 的 演化 衡 
量 的 是 主题 关注 点 的 迁移 ,本 文 的 主题 演化 研究 考量 
的 是 主题 发 展 的 热度 的 变化 ,而 主题 内 容 随 时 间 的 具 
体 变化 对 于 深入 探索 春秋 时 期 社会 各 方面 的 发 展 变迁 
也 非常 重要 ,这 亦 是 笔者 下 一 步 的 研究 工作 。 
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Topic Mining and Evolution Analysis of Social Development in Spring and Autumn Period 
一 一 人 Case of Studying Zuo Zhuan 
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OO) Abstract: | Purpose/significance | In the context of the rapid development of humanistic computing, this paper 
uses text mining technology to cluster Zuo Zhuan, which provides a reference for quantitative analysis such as topic 
mining in Spring and Autumn Period, and has a certain reference significance for multi-dimensional reorganization 
and analysis of classical texts. | Method/process | This paper uses text clustering method to analyze Zuo Zhuan 
quantitatively in many dimensions, breaking the linear and chronological record order of Zuo Zhuan. Firstly, using 
the word matching algorithm, the corpus of each vassal state is obtained from the characteristic words of Zuo Zhuan. 
Then the LDA topic model is used to process the characteristic words of Zuo Zhuan and the corpuses of selected vas- 
sal states. Finally, the topic strength calculation is performed in combination with the time information. | Result/ 
conclusion | The experimental results show that the development of the Spring and Autumn Society and the vassal 
states can be explored according to the theme-word distribution. The development trend of the Spring and Autumn So- 
ciety and various vassal states can be summarized through the theme intensity curve. Through the LDA topic cluste- 
ring method, the development of war, politics and diplomacy in the whole society and different vassal states in the 
Spring and Autumn Period is finally revealed. 
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